华人团队论文登上Hugging Face日榜前三,让多模态AI自我进化,超越现
近日,一篇由华人研究团队撰写的论文冲上Hugging Face论文日榜前三,并提出了一条让VLM模型摆脱人工标注、靠自己进化的新路。
近日,一篇由华人研究团队撰写的论文冲上Hugging Face论文日榜前三,并提出了一条让VLM模型摆脱人工标注、靠自己进化的新路。
自动驾驶车辆要在复杂多变的道路环境中安全行驶,不仅需要“看见”前方的车辆、行人和路面标志,还需要“读懂”交通标识上的文字提示、施工告示牌和乘客的语言指令。之前和大家讨论过VLA(相关阅读:自动驾驶中常提的VLA是个啥?),了解到视觉-语言-动作模型,但在很多场
模态 transformer vla 自然语言 vlm 2025-09-24 04:46 4
9月16日-17日,聚合智能产业发展大会(2025)在武汉市举行,主题为“协同融合创新链产业链 推动聚合智能产业发展”。聆动通用创始人兼CEO、科大讯飞机器人首席科学家季超出席并演讲。
小鹏全新P7以21.98万的起售价点燃市场热情,上市仅七分钟大定突破一万台。这一成绩也说明,小鹏最新押注的“颜值+科技”组合路线初见成效。
机器人操作是具身人工智能(Embodied AI)的关键前沿,它要求机器具备精准的运动控制和复杂的多模态理解能力。然而,传统的机器人技术在面对非结构化、充满变化的真实世界环境时,往往显得力不从心。近年来,随着大型视觉-语言模型(Large Vision-Lan
2025年8月8日,理想汽车自动驾驶高级算法专家詹锟、湛逸飞,接受媒体专访,围绕视觉语言行动VLA模型等核心技术,深入探讨理想在自动驾驶领域技术突破与未来规划。
三颗自研图灵AI芯片、800V高压平台、5C超充能力,以及全系双腔空气悬架,这些曾出现在百万级豪车上的配置,如今全部标配在一款21.98万元起售的国产电动轿跑上。
何小鹏在最近与罗永浩的对谈中,用这句话总结了造车的难度。对于这位已经创业成功的互联网老兵来说,汽车这个行业,显然比他最初想象的要复杂得多。
据prnewswire 8月12日首尔报道,韩国人工智能公司Nota AI今天(12日)正式宣布推出韩国首个基于视觉语言模型(VLM)的商用实时视频监控解决方案NVA。这是首个能在工业环境中理解复杂场景关系的AI监控系统,已成功在韩国Kolon Industr
今日,小鹏G7正式亮相以及发布预售。作为2025年小鹏首款全新车型,小鹏G7共推出Max和Ultra两个版本,预售价23.58万元。在202年6月11起到小鹏G7上市日,购买小鹏G7的用户均可享2000元意向金抵扣5000元购车金的权益,同时可与上市权益叠加使
然而,当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息,在高清图像中的微小物体、视频里的动态细节等场景中,常常因缺乏直接视觉操作能力而「视而不见」。
相比其他车企每次在新品发布会上相对正式地谈论自己的智能化战略,理想汽车每次都会单开一个访谈,来面对面沟通自己对智能辅助驾驶的思考。
亮点直击新发现:旨在解决由编辑指令与原始-编辑图像对之间错位引起的噪声监督问题,这是先前工作忽视的根本性问题,如下图2所示。修正监督:利用扩散生成先验指导视觉语言模型,为原始-编辑图像对生成更匹配的编辑指令。强化监督:引入基于三元组损失的对比监督,使编辑模型能